Telegram Group & Telegram Channel
Чем отличается использование памяти у оптимизаторов Adam и SGD

Adam потребляет больше памяти, чем стандартный SGD, потому что хранит дополнительные данные для адаптивного обновления параметров.

Adam хранит для каждого параметра две дополнительные переменные:
📍 m — экспоненциальное среднее градиентов (первая моментная оценка),
📍 v — экспоненциальное среднее квадратов градиентов (вторая моментная оценка).

То есть если у модели 10 млн параметров, Adam будет хранить ещё 20 млн значений (всего 30 млн), что заметно увеличивает потребление памяти.

SGD:
📍 В базовом виде — не хранит ничего, кроме самих параметров.
📍 С momentum — хранит один дополнительный буфер (скорость), то есть на одну переменную больше на каждый параметр.

На практике:
➡️ Если у вас ограничения по GPU-памяти, и модель или батчи не вмещаются, можно перейти с Adam на SGD, чтобы высвободить память.
➡️ Но стоит помнить, что Adam часто сходится быстрее и лучше работает с разреженными градиентами (например, при работе с текстами или рекомендациями).

Некоторые фреймворки (например, PyTorch) предоставляют памяти-эффективные версии Adam, но они могут требовать ручной настройки или иметь побочные эффекты.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/967
Create:
Last Update:

Чем отличается использование памяти у оптимизаторов Adam и SGD

Adam потребляет больше памяти, чем стандартный SGD, потому что хранит дополнительные данные для адаптивного обновления параметров.

Adam хранит для каждого параметра две дополнительные переменные:
📍 m — экспоненциальное среднее градиентов (первая моментная оценка),
📍 v — экспоненциальное среднее квадратов градиентов (вторая моментная оценка).

То есть если у модели 10 млн параметров, Adam будет хранить ещё 20 млн значений (всего 30 млн), что заметно увеличивает потребление памяти.

SGD:
📍 В базовом виде — не хранит ничего, кроме самих параметров.
📍 С momentum — хранит один дополнительный буфер (скорость), то есть на одну переменную больше на каждый параметр.

На практике:
➡️ Если у вас ограничения по GPU-памяти, и модель или батчи не вмещаются, можно перейти с Adam на SGD, чтобы высвободить память.
➡️ Но стоит помнить, что Adam часто сходится быстрее и лучше работает с разреженными градиентами (например, при работе с текстами или рекомендациями).

Некоторые фреймворки (например, PyTorch) предоставляют памяти-эффективные версии Adam, но они могут требовать ручной настройки или иметь побочные эффекты.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/967

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

However, analysts are positive on the stock now. “We have seen a huge downside movement in the stock due to the central electricity regulatory commission’s (CERC) order that seems to be negative from 2014-15 onwards but we cannot take a linear negative view on the stock and further downside movement on the stock is unlikely. Currently stock is underpriced. Investors can bet on it for a longer horizon," said Vivek Gupta, director research at CapitalVia Global Research.

Look for Channels Online

You guessed it – the internet is your friend. A good place to start looking for Telegram channels is Reddit. This is one of the biggest sites on the internet, with millions of communities, including those from Telegram.Then, you can search one of the many dedicated websites for Telegram channel searching. One of them is telegram-group.com. This website has many categories and a really simple user interface. Another great site is telegram channels.me. It has even more channels than the previous one, and an even better user experience.These are just some of the many available websites. You can look them up online if you’re not satisfied with these two. All of these sites list only public channels. If you want to join a private channel, you’ll have to ask one of its members to invite you.

Библиотека собеса по Data Science | вопросы с собеседований from hk


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA